logo

기술지원/장애처리 신청

온라인 작업의뢰 신청하기

대표번호1688-4879
FAX. 02-861-4879

1. 상품/영업 문의
2. 결제/세금계산서

24*365 Always
기술지원/장애상담

네임서버

[1차] NS1.KR 115.68.62.210
[2차] NS2.KR 115.68.100.102
[3차] NS8.KR 115.68.100.113
[4차] NS9.KR 115.68.62.222

GPU 공짜? 75,000원으로 LLM 실행

AMD AI GPU K6 BMv1은 CPU 내장 그래픽 코어를 활용해, 한국어에 강한 다국어 대형 언어 모델(LLM)을 쉽게 실행할 수 있습니다. 간단한 AI 챗봇을 부담 없이 손쉽게 구축할 수 있습니다.

고성능 추론 프레임워크 지원

Ollama, vLLM, KTransformers 등의 프레임워크를 기반으로 대규모 언어 모델(LLM)을 실행할 수 있는 최적화된 사양을 제안합니다.
DeepSeek-R1 671B와 같은 초대형 언어 모델도 NVIDIA 하이엔드 Multi-GPU 환경이 아니여도 합리적인 비용으로 실행할 수 있습니다.

다양한 GPU 환경

APU, 8 Multi-GPU, 1TB Memory로 소형부터 초대형까지 LLM을 실행할 수 있습니다.
최신 NVIDIA 데이터센터용 VRAM 96GB GPU를 Multi로 구성할 수 있는 시스템 환경을 제공합니다.

LLM 실행 프레임워크

프로젝트 목표 및 사용 환경을 고려하여 프레임워크를 선택해야 합니다. 스마일서브는 LLM을 실행할 수 있는 인프라 자원에 가장 최적화된 프레임워크를 제공합니다.

  • Ollama

    VM 또는 저사양 서버에서 4bit 및 8bit로 양자화된 주요 오픈소스 LLM을 간소화된 환경에서 실행할 수 있도록 설계된 경량 플랫폼

    특징

    메모리 효율성: 가볍고 확장 가능한 구조로 설계되어, 다양한 컴퓨팅 환경에서 로컬 자원을 효율적으로 활용할 수 있습니다.

    직관적 통합: 간단한 API와 사전 구축된 모델 라이브러리를 제공하여, 별도의 복잡한 환경 설정 없이 바로 대규모 언어 모델을 생성, 실행, 관리할 수 있습니다.

    로컬 중심 확장성: 클라우드 솔루션에 의존하지 않고, 사용자가 직접 모델 가중치, 구성, 데이터를 패키징 및 조정할 수 있으며, GPU 활용 최적화 옵션을 지원합니다.

    선택이유

    자유로운 모델 운용: Llama, Gemma 등 다양한 대형 언어 모델을 로컬 환경에서 직접 운용·제어하여 데이터 보안과 프라이버시를 강화할 수 있습니다.

    유연한 인프라 호환: Mac, Windows, Linux 등 다양한 OS와 환경에서 일관된 LLM 서비스 제공이 가능합니다.

  • vLLM

    고성능 LLM 서빙 및 추론을 지원하는 프레임워크로 GPU 기반의 빠른 토큰 생성과 효율적인 분산 처리 가능한 프레임워크

    특징

    메모리 효율성 : PagedAttention 기술을 기반으로 대규모 언어 모델에서 메모리 사용을 최적화하고 처리 효율을 높입니다.

    비동기적 실행 : 입력 요청을 비동기적으로 처리하여 GPU의 활용도를 극대화하며, 동시에 여러 작업을 효율적으로 수행할 수 있습니다.

    확장 및 호환성 : 다양한 하드웨어 환경에서 실행 가능하며, 모델 크기와 데이터 입력 크기에 따라 유연하게 확장 가능합니다.

    선택이유

    Nvidia GPU 지원 : 뛰어난 성능의 Nvidia GPU 모델과 VRAM의 강력한 성능으로 결과물을 높일 수 있습니다.

    관리자 권한 제공 : vLLM에서 제공하는 다양한 LLM을 설치 제어할 수 있는 권한을 부여합니다.

    다양한 인프라 자원 제공 : VM, Baremetal에서 실행하여 프로젝트 목표에 따라 조절할 수 있습니다.

  • Ktransformers

    DeepSeek-R1 671B와 같은 초대형 언어 모델을 실행할 수 있는 비용 효율성에 극대화된 프레임워크

    특징

    메모리 관리: Transformer 모델의 크고 복잡한 구조를 효율적으로 처리할 수 있도록 핵심 연산(특히 Attention)의 메모리 사용을 최소화해, 보다 적은 자원으로도 고성능 추론이 가능합니다.

    실행 속도: PyTorch, CUDA와의 최적화된 연동을 통해 GPU를 최대한 활용하며, 기존 Transformer 구현 대비 빠른 토큰 생성과 병렬 처리 효율을 보장합니다.

    모듈화/확장성: LLM 서빙 프레임워크(vLLM, HuggingFace Transformers 등)와의 호환성이 뛰어나, 다양한 모델과 애플리케이션에 즉시 적용이 가능합니다.

    선택이유

    GPU 성능 극대화: 최신 Nvidia GPU의 연산 성능과 대용량 VRAM을 최대한 활용할 수 있는 최적화된 Attention 연산을 제공합니다.

    대규모 추론 지원: 복수의 입력 데이터에 대해 동시 추론, 배치 처리 등 고속 대량 처리가 필요한 서비스 환경에 적합합니다.

    오픈소스 및 유연성: 자유롭게 커스터마이징이 가능한 오픈 소스 라이브러리로, 프로젝트 요구 사항에 맞춰 세밀한 설정과 연동이 가능합니다.

    벤치마크 결과

    DeepSeek-R1 671B

LLM 정보

LLM 실행 시 CPU-GPU 혼합 사용은 효율성 향상에 필수적입니다. 모델 규모와 추론 프레임워크에 따라 적절한 GPU 및 메모리 사양이 달라지며, 양자화 모델의 경우 아래 가이드를 참고하시기 바랍니다.

LLM 모델 매개변수 URL(허깅페이스) 컨텍스트 길이(tokens) 성능(능력)
gpt-oss 20B Ollama
Hugging Face
128K - o3-mini보다 우수하며 o4-mini와 거의 동등한 수준의 추론 능력 보유
- 수학, 일반 문제해결, 도구 호출 등에서 뛰어난 성능 발휘
- MMLU, HLE 등 언어(이해/추론/작문) 능력 상위 수준
120B Ollama
Hugging Face
Qwen3 30B Ollama
Hugging Face
32K - 코드·수학·추론 등에서 상위 모델보다 뛰어난 MoE 아키텍처 적용
- 119개 국 다국어 지원 모델로써 한국어 처리 성능 우수
- 빠른 답변 속도와 향상된 코드 생성 능력 제공
32B Ollama
Hugging Face
235B Ollama
Hugging Face
DeepSeek-R1 7B Ollama
Hugging Face
128K - 계산, 코딩, 응답 품질 등 GPT-4 이상 수준의 우수한 성능
- 중국어 및 영어에 능통, 준수한 한국어 이해도 및 응답 성능
14B Ollama
Hugging Face
70B Ollama
Hugging Face
671B Ollama
Hugging Face
Gemma3 12B Ollama
Hugging Face
input : 128K
output : 8192
- 경량화 기반 메모리 효율성 우수
- GPT-3.5 기반의 안정적 성능
- 다국어 지원 모델로써 한국어 처리 성능 우수
27B Ollama
Hugging Face
Llama4 - Scout 17B Ollama
Hugging Face
10M - 최대 10M 토큰의 초장기 문맥 유지 가능
- 긴 문서 요약, 지속 대화 성능, 코드베이스 분석에 특화(정밀 추론 성능은 일반적)
- 영어 중심 설계, 한국어 성능 다소 낮음
Llama3.3 70B Ollama
Hugging Face
128K -GPT-4 Turbo급 고성능 추론 및 대화 가능
- 추론, 대화, 코딩, 지식 응답 성능 우수
- 다국어 학습 기반 모델, 한국어 성능 준수
Llama3.2 11B Ollama
Hugging Face
128K - 경량 모델 대비 뛰어난 코딩 처리 성능 및 우수한 안정성
- 다국어 학습 기반 모델, 한국어 성능 일부 한계 존재
90B Ollama
Hugging Face
- GPT-4 Turbo급 대화, 추론, 지식 응답 가능
- 대규모 파라미터 기반의 다국어 학습, 한국어 대응력 우수
Phi4 14B Ollama
Hugging Face
32K - 빠른 응답 속도, GPT-3.5급 논리 추론, 요약 가능
- 경량화에 최적화된 모델
- 한국어의 정확도, 유창성 다소 낮음
HyperCLOVA X SEED 1.5B Hugging Face
16K - 온디바이스 및 저사양 환경에 최적화된 경량 모델
- GPT-3.5 계열 소형 모델 수준의 정확도 및 안정성
- 한국어 기반 지시어 및 질문 응답 성능 매우 우수
3B Hugging Face
모델 크기별 요구 사양 가이드 (양자화 LLM Q4 기준)
모델 매개변수 DRAM 최소 사양 실행 환경
초소형 ~ 2B 파라미터 4 ~ 8GB 노트북 수준의 GPU 또는 일부 CPU-only 환경에서도 실행 가능
소형 2B ~ 10B 파라미터 8 ~ 16GB 일반 소비자용 GPU 가능 4090 등
중형 10B ~ 20B 파라미터 16 ~ 32GB 4000Ada 이상 또는 RTX 4090/5090 Multi-GPU 구성
대형 20B ~ 70B 파라미터 32 ~ 128GB A6000, PRO5000 Multi-GPU 구성
초대형 70B ~ 파라미터 128GB 이상 PRO6000 Multi-GPU 구성 이상

AI 기반의 분석 및 시각화 서비스를 제공하는 Artificial Analysis 에서 LLM에 대한 더 다양한 자료를 참고할 수 있습니다. (해당 사이트는 정보 제공을 목적으로 공유하며, 스마일서브와는 무관합니다.)

GPU 사양 정보

스마일서브는 합리적인 가격의 GPU 서버를 통해 사용자가 원하는 환경에서 필요한 서비스를 유연하게 구동할 수 있도록 지원합니다.
사용자는 GPU Pass-through로 할당되는 가상 서버, 즉시 활용 가능한 온디맨드 베어메탈 서버, 원하는 사양으로 직접 구성하는 맞춤형 GPU 서버 중 선택하여 자신의 용도와 예산에 최적화된 인프라 자원을 자유롭게 선택할 수 있습니다.

베어메탈 서버(Bare Metal Server)

CLOUDV에서 제공하는 AMD GPU 기반 Ollama 특화 베어메탈 서버는 고밀도 집적을 위한 전용 폼팩터와 합리적인 월 요금제로 고성능 LLM 환경을 제공합니다.

상품명 AMD AI GPU K6 BMv1 AMD AI 9060XT BMv1 AMD AI W6800 BMv1
GPU Type AMD APU 9060XT
(Stream Processors: 2,048)
W6800
(Stream Processors: 3,840)
GPU 1 1 1
VRAM Custom 16GB
(GDDR6)
32GB
(GDDR6)
CPU(Thread) 16 Thread 16 Thread 16 Thread
DRAM 32GB 64GB 64GB
Storage(OS) 512GB SSD 500GB SSD 500GB SSD
네트워크 속도 1Gbps
(전체) 월 2,400GByte 기본 제공, 초과 1GB당 70원
(해외) 월 50GByte 기본 제공, 초과 100MB당 40원
지원 프레임워크 Ollama Ollama Ollama
이용료(월) 75,000원 149,000원 199,000원
※ 이용요금은 선불이며, VAT 별도 표시 금액입니다.
※ 서비스 이용안내 및 주의사항, 무료혜택은 홈페이지 하단을 참조하세요.
※ 회선 상담이 필요하실 경우 영업팀에 문의 주시기 바랍니다. [ 1688-4879 ]
※ 서버에 장착된 메모리 용량의 일부가 내장그래픽에 할당될 수 있습니다.
가상서버(Virtual Machine)

GPU서버 구매가 부담되거나 GPU 성능 확인 및 테스트가 필요할 경우 iwinv GPU 가상 서버를 이용하세요. GPU 종류에 따라 최대 4개까지 가상화된 환경에서 할당(PassThrough)한 서버를 일 요금으로 이용할 수 있습니다.

GPU 모델 Tesla T4 4000Ada A6000 PRO5000 PRO6000
GPU 개수 1 ~ 4 GPU
vCPU 6 ~ 24 vCPU 8 ~ 32 vCPU 8 ~ 32 vCPU 8 ~ 32 vCPU 8 ~ 32 vCPU
DRAM 60 ~ 240GB 120~480GB
VRAM 16 ~ 64GB 20 ~ 80GB 48 ~ 192GB 48 ~ 192GB 96 ~ 384GB
Storage(OS) SSD 100GB
AI 프레임워크 LLM: Ollama, vLLM
AI/ML: TensorFlow, PyTorch 등
이용료(일) 6,260원 ~ 9,200원 ~ 18,200원 ~ 준비중 51,480원 ~
맞춤 서버(Custom Dedicated Server)

LLM 서버 성능은 사용 목적에 맞는 사양 설정에 따라 달라집니다. GPU는 병렬 연산, CPU는 모델 관리 및 데이터 처리, RAM은 대용량 처리, Storage는 데이터 저장 및 I/O 속도에 각각 기여합니다. LLM 모델의 규모, 목적, 예산에 맞춰 선택할 수 있습니다.


GPU는 LLM 처리에서 가장 중요한 요소 중 하나로, 대규모 병렬 연산을 수행합니다.
- GPU 메모리 용량 (VRAM): 대규모 언어 모델의 경우 모델 크기가 매우 크기 때문에 GPU의 VRAM 용량이 충분히 커야 합니다.
- FP16/FP32 연산 속도 : AI 작업에서 주로 사용되는 FP16(half-precision) 연산 속도가 높은 GPU를 선택해야 합니다.
- 다중 GPU 지원 여부 : 대형 모델은 기본적으로 멀티 GPU 구성이 필요합니다.


CPU는 전체 시스템의 제어와 데이터 전처리 및 모델 관리를 담당합니다.
- 코어 수: CPU 코어는 병렬 데이터 로딩 및 모델 스케줄링을 처리하므로 멀티코어 프로세서가 유리합니다.
- 클럭 속도 : 높은 클럭 속도는 빠른 데이터 준비와 모델 실행 속도를 지원합니다.


RAM은 모델 실행 및 데이터 처리 시 임시 데이터를 저장하는 역할을 합니다.
- 용량: RAM은 GPU 메모리의 한계를 보완하는 역할을 합니다. 따라서 충분한 RAM 용량이 중요합니다.
- 속도 (클럭) : RAM 클럭 속도가 빠를수록 데이터 처리 속도가 향상됩니다. DDR4 또는 최신 DDR5 메모리를 추천합니다.
- 메모리 확장성 : 서버의 RAM 슬롯 수를 확인하여 필요 용량을 계산할 수 있습니다.


Storage는 LLM 작업에서는 모델 저장 및 데이터 I/O 성능이 중요합니다.
- 속도: 고속 데이터 입출력을 위해 NVMe SSD를 추천합니다.
- 입출력 작업 수 : 대규모 데이터셋을 빠르게 불러오기 위해 IOPS(초당 입력/출력 작업 수)가 높은 SSD를 추천합니다.
- 용량 : 1~2TB 이상의 용량을 권장합니다.

지원 범위 Ollama, vLLM(4GPU) Ollama, vLLM(8GPU) Ktransformers
GPU 슬롯 최대 4개 최대 8개 최대 1개
GPU 모델 - AMD : w6800, 9700
- NVIDIA : 4000Ada, A6000, 6000Ada
PRO5000, PRO6000,
4090 blower
- AMD : w6800, 9700
- NVIDIA : 4000Ada, A6000, 6000ada,
PRO5000, PRO6000,
4090 blower
- NVIDIA : 4000Ada, A6000, 6000Ada,
PRO5000, PRO6000,
4090 blower, 5080, 5090
CPU 1 x Xeon Silver 4314
(16C/32T)
2 x Xeon Silver 4314
(32C/64T)
2 x Xeon Silver 4510
(24C/48T)
RAM 8 x 16~64GB
(DDR4)
32 x 16~64GB
(DDR4)
16 x 64GB
(DDR5)
Storage SSD, NVMe
- 내부: 2 x PCIe3.0 x2, 1 x SATA3(2.5")
- 외부: 8 x SATA3(2.5"/3.5") Hot-swap
SSD, NVMe
- 내부: 1 x PCIe3.0 x4
- 외부: 12 x SATA3(2.5"/3.5") Hot-swap
SSD, NVMe
- 내부: 2 x PCIe4.0 x2, 1 x SATA3(2.5")
- 외부: 8 x SATA3(2.5"/3.5") Hot-swap
LAN - 4 x 2.5Gbps(RJ45, Ethernet 전용)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능 (3GPU 이하 시)
- 2 x 1Gbps(RJ45, Ethernet 전용)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능
- 2 x 1Gbps(RJ45, Ethernet, 1x IPMI 공유)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능
Chassis SMILE Barebone4U Tyan GPU B7129F83AV8E4HR-N-HE SMILE Barebone4U
PSU ATX [2000/2500]W Single - 6000W(3+1 2,000W RPSU, 80+ Platinum)
- 4800W(3+1 1,600W RPSU, 80+ Platinum)
ATX 1200W Single
GPU 사양 비교
제조사 NVIDIA AMD
모델 PRO6000 PRO5000 Tesla T4 A6000 4000Ada RX9060XT W6800
아키텍쳐 Blackwell Blackwell Turing Ampere Ada Lovelace AMD RDNA™ 4 AMD RDNA™ 2
GPU 메모리 96GB
(GDDR7 ECC)
48GB
(GDDR7 ECC)
16GB
(GDDR6 ECC)
48GB
(GDDR6 ECC)
20GB
(GDDR6 ECC)
16GB
(GDDR6)
32GB
(GDDR6 ECC)
GPU 메모리 대역폭 1,792 GB/s 1,344 GB/s 320 GB/S 768 GB/S 360 GB/S 320 GB/s 512 GB/S
CUDA 코어
(스트림프로세서)
24,064 14,080 2,560 10,752 6,144 2,048 3,840
FP32 성능 110 TFLOPS 73.2 TFLOPS 8.1 TFLOPS 38.7 TFLOPS 26.7 TFLOPS 25.6 TFLOPs 17.83 TFLOPS
TDP 300W 300W 70W 300W 130W 160W 250W
이용안내

본 페이지는 AI 추론 활용에 대한 환경 정보를 제공하므로, GPU 서버에 대한 자세한 사항은 각 상품 페이지에서 확인할 수 있습니다.
본 페이지에 표시된 정보는 실제 정보를 확인할 수 있는 상품 페이지의 내용과 상이할 수 있으며, 실제 서비스가 가능한 페이지의 정책을 우선으로 합니다.
기타 이용에 관한 사항은 약관 및 SLA에서 확인하시기 바랍니다.


1. 베어메탈
 ① 상품 이용에 대한 상세 정보 및 정책은 영구임대-온디맨드에서 확인할 수 있습니다.
2. 맞춤서버
 ① 맞춤 서버는 상담 > 견적 > 납품 순으로 진행하며, 이 과정에서 서비스 이용까지 시간이 소요될 수 있습니다.
 ② 스마일서브 IDC 외 설치 장소는 스마일서브 협력사를 통하여 납품을 납품되므로 출장비가 발생합니다.
 ③ 맞춤 서버는 견적 당시 기준으로 공급가가 결정되며, 견적 유효 기간 또는 공공 요금 인상 등의 이유로 변경 될 수 있습니다.
3. 가상서버
 ① 가상서버에 관한 모든 사양은 iwinv 홈페이지에서 확인 가능합니다..